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基于 条 件 随 机 场 的 汉语 词汇 特征 研究 “ 
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摘 要 : 汉语 语言 在 书面 表达 时 不 具有 天 然 分 词 的 特性 ， 词 汇 与 词汇 之 间 没 有 分 词 标记 ， 因 此 在 汉语 文本 的 识别 中 
需 结 合 其 行文 的 习惯 及 规则 ， 即 所 谓 的 词汇 特征 。 已 有 研究 通常 在 实验 中 显 式 地 标注 词汇 特征 来 提高 识别 效果 ， 增 
加 了 人 工 处 理 流 程 ， 极 大 地 加 重 了 算法 移植 的 工作 量 。 研 究 并 归纳 了 常用 汉语 语言 的 词汇 特征 ， 并 利用 条 件 随 机 场 
(conditional random fields，CRF) 的 特征 提取 能 力 ， 自 行 实现 了 复杂 特征 函数 ， 在 语 料 只 具有 简单 标注 的 前 提 下 ， 
隐 式 地 提取 词汇 特征 ， 提 高 了 识别 效果 。 实 验证 明 ， 在 汉语 分 词 中 应 用 复杂 词汇 特征 能 有 效 提 高 识别 性 能 ， 提 供 了 
在 应 用 中 提高 识别 算法 可 移植 性 的 新 思路 。 
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Study of Chinese lexical features base on conditional random fields 


Huang Dingqi, Shi Shenghui 
i (College of Information Science & Technology, Beijing University of Chemical Technology, Beijing 100029, China) 


Abstract: In Chinese written expression, there is no word segmentation between vocabularies, so the principle of writing 
(or called lexical features) is what it needs to process the segmentation of Chinese content. Former researches usually mark 
the lexical features into training content to improve the performance, which increases the manual processing flow and the 
workload of the algorithm transplantation. Based on Conditional Random Fields (CRF) and the simple tags, this paper 
improves the recognition performance by concluding the lexical features of Chinese and transforming them to complicated 
functions which used by CRF. Experiments show that applying complex lexical features in Chinese word segmentation can 
effectively improve recognition performance and provide a new way to improve the portability of recognition algorithms in 
applications. 
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特征 ， 寻 找 汉语 文本 的 词汇 特征 ， 使 其 能 够 在 简单 标注 的 语 


0 引言 料 下 都 能 实现 较 好 的 性 能 。 
随 着 机 器 学 习 的 发 展 , 信息 提取 (information extraction， R a 
(SG 正 ) 技术 已 经 逐渐 被 应 用 在 各 个 领域 的 生产 过 程 中 ， 建 立 各 1 ”相关 研究 概述 
CS ”个 领域 的 智能 知识 库 成 为 越 来 越 迫 切 的 需求 。 而 其 中 从 各 式 。 1.1 条 件 随机 场 〈conditional random fields，CRF) 
-= 各 样 的 文字 说 明 、 描 述 中 提取 信息 关键 词 ， 即 命名 实体 识别 CRFDG 是 一 种 统计 模型 。 由 隐 马 尔 可 夫 模 型 (hidden 
(named entity recognition，NER )， 是 一 项 必 备 而 重要 的 工 Markov model, HMM ) 理 论 与 最 大 凡 模型 (maximum entropy， 
作 。 ME ) 理论 发 展 而 来 ， 同 时 具有 该 两 种 模型 的 优势 。 相 比 于 
关于 汉语 命名 实体 识别 的 研究 ， 目 前 主要 集中 于 特定 领 HMM,CREF 可 以 使 用 复杂 的 特征 函数 对 指定 信息 进行 评判 ， 
域 中 的 特定 格式 文本 的 特定 关键 字 识 别 。 例 如 ， 文 献 [1] 基 于 在 训练 过 程 中 ， 能 够 充分 利用 特征 函数 指定 的 文本 上 下 文 信 
医学 领域 中 的 中 文 临床 病历 内 容 ， 研 究 病历 记录 中 的 疾病 、 息 进行 参数 调整 ， 从 而 在 推理 分 词 过 程 中 应 用 上 下 文 信息 。 
症状 以 及 时 间 记 录 等 关键 信息 ; 文献 [2] 从 模型 方法 对 比 、 特 基于 这 个 优势 ，CRF 大 量 被 应 用 于 各 种 场景 中 。 文 献 [6] 
征 标 注 集 的 角度 ， 研 究 从 医药 领域 的 药品 说 明 中 抽取 症状 信 在 影像 分 类 中 应 用 了 CRF; 文献 [7] 将 CRF 应 用 于 英文 法 律 


息 的 自动 化 方法 ， 发 现 增 加 有 效 标注 信息 能 够 提升 信息 抽取 ”文档 (legal documents) 中， 识别 文档 中 的 标语 以 及 找 出 文 


的 准确 率 及 查 全 率 ; 文献 [3] 从 使 用 模型 加 自 定义 规则 的 方式 ， ” 档 的 判决 先例 (precedence ); 文献 [8] 研 究 了 如 何在 混合 语言 

识别 文本 中 的 时 间 表 达 式 ; 文献 [和 ] 则 研究 在 电子 商务 领域 中 ”的 文本 中 精确 地 识别 每 个 单词 的 所 属 语言 , 使 用 CRF 来 辅助 

的 产品 描述 信息 的 自动 分 词 。 算法 提高 识别 效果 ;文献 [9] 甚 至 将 CRF 应 用 到 了 社交 网 络 
以 上 研究 着 重 考虑 特定 领域 的 指定 信息 特征 ， 其 提取 方 的 社区 团体 的 识别 中 。 

法 对 标注 集 的 依赖 性 较 强 ， 在 其 他 领域 应 用 该 方法 时 ， 均 需 CRF 的 核心 原理 为 


要 花费 大 量 的 精力 构建 标注 集 。 因 此 ， 本 文 研 究 了 基于 条 件 yy Seon Sa 加 
随机 场 〈conditional random fields，CRF) 的 汉语 语言 特征 ， ee 人 
在 汉语 文本 只 具有 简单 标注 的 条 件 下 ， 尝 试 从 中 提取 其 行文 其 中 : 怀表 示 当 前 观测 序列 ; xi:EX 表 示 当 前 观测 值 ， 了 表示 
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本 标记 集合 ;>E 了 表示 标记 值 ; 玉 表示 特征 函数 的 总 个 数 ， 
下 标 k<K 表示 特征 函数 了 与 相应 权 值 w 的 对 应 元 素 下 标 ， 而 
KK 则 表示 模型 所 包含 的 特征 函数 总 数 。 从 上 式 可 以 看 出 ， 在 
CRF 的 应 用 中 ， 对 于 指定 观测 序列 和 ， 将 某 个 观测 值 立 标记 


为 的 概率 与 模型 包含 的 所 有 天 个 特征 函数 /及 相应 权 值 w 
成 正比 关系 ， 即 特征 函数 


的 作用 。 
而 对 于 有 关 CRF 


的 选取 对 模型 应 


效果 有 着 决定 性 


的 研究 ,文献 [10,11] 对 如 何 进行 特征 函 


数 的 选取 做 了 对 比 研究 , 证 明 


了 在 CRF 的 应 用 场景 中 , 选择 


适合 的 特征 函数 能 够 明显 提高 识别 效果 。 因 此 ， 在 中 文 命名 


实体 识别 的 过 程 中 ， 
CRF 


应 用 于 该 过 程 中 的 一 个 重要 问题 。CRF++ 是 现 有 的 在 研 


如 何 选取 相应 的 语言 特征 函数 ， 是 将 


n 


(b) 处 了 
的 描述 实体 。 
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框架 基础 的 词语 ， 如 名 词 、 代 词 ， 这 些 词 指明 了 句子 


在 研究 词汇 之 间 的 关系 之 前 ， 需 要 先 将 字 组 成 词 ， 而 不 


同类 型 词汇 的 出 现 频率 与 特征 都 是 不 同 的 。 影 响 


构 的 词 往往 


所 以 其 词汇 特征 也 较 明显 ; 机 
料 中 出 现 的 频率 往往 不 同 ， 大 多 
上 ， 因 此 这 类 词 的 词汇 特征 
本 文 主要 研究 内 容 为 归 
从 中 找 出 最 优 特 征集 ， 
基于 条 件 随机 场 的 特征 研究 


别 的 词汇 ， 


响 ， 
2.1 


在 表述 中 经 常 出 现 ， 


句子 意义 结 


属于 汉语 中 的 常用 关键 词 ， 
目 反 ， 第 二 类 词 在 不 同 领域 的 语 
只 有 具备 了 相应 知识 才能 识 


不 明显 。 


内 不 同 词汇 特征 对 识别 结果 的 影 


在 条 件 随机 场 中 ， 其 特征 函 


保证 识别 结果 的 有 效 性 。 


数 以 及 函数 相对 应 的 权重 起 


究 中 常用 的 模型 工具 决定 性 作用 。 其 中 ， 特 征 函 数 则 是 模型 的 工作 中 心 ， 条 件 随 
1.2 汉语 语言 特征 机 场 通 过 用 户 选 择 的 特征 函数 ， 对 训练 语 料 进行 特征 提取 ， 
依存 语法 (dependency grammar，DG) [2 又 称 从 属 关 系 即 权 重 调整 。 
语法 ， 是 一 种 建立 在 词汇 之 间 的 关系 上 的 ， 结 合 了 语言 语义 特征 函数 是 特征 的 具体 表现 形式 ， 本 文 对 一 些 在 表达 中 
与 语言 表达 的 语法 理论 ， 为 语言 语义 研究 提供 一 种 思路 。 这 常 出 现 的 汉语 词汇 特征 进行 归纳 总 结 ， 并 将 其 转换 为 能 够 为 
种 结构 思想 已 经 被 许多 研究 者 接纳 ， 如 文献 [13] 利 用 DG 规 条件 随机 场所 用 的 特征 函数 形式 。 在 相同 的 训练 语 料 环境 下 ， 
则 识别 汉语 里 的 复句 关系 ; 文献 [14] 探 索 了 如 何 构建 DG 结 ”研究 其 在 识别 上 的 效果 ， 从 而 找 出 对 于 汉语 词汇 识别 较为 敏 
构 的 汉语 树 库 ;文献 [15] 在 词 纠 错 中 应 用 了 依存 语法 。 感 的 特征 集 。 


有 词汇 的 框架 的 过 程 。 


词 的 过 程 。 有 些 字 能 够 六 


基于 DG 理论 ， 句 子 中 的 词语 共同 构成 了 该 语句 的 中 心 
思想 ， 并 在 其 中 起 不 同 的 支撑 作用 。 
做 特定 的 表达 框架 ， 语 言 识 别 过 程 了 


因此 ， 语 言 特征 可 
是 梳理 整 句 话 包含 的 所 
五 


特征 函数 


在 条 件 随 必 


几 场 的 理论 而 


究 中 


， 通 常 使 用 字母 了 表示 特征 


函数 ， 字 母 w 表示 特 和 


在 汉语 语言 中 还 存在 一 个 字 成 
独 表达 意思 ， 而 有 些 字 却 要 组 合 起 


此 外 ， 


来 才 有 实际 意义 。 因 此 在 对 汉语 语 料 进 行 处 理 的 过 程 中 ， 还 


要 综合 考虑 词汇 特征 ， 
架 进行 梳理 。 
遇 于 不 同 领域 的 


结合 汉语 成 词 方式 ， 共 同 对 句子 的 杠 


征 函 数 提取 模板 五 生成 ; f 与 @ 


@e f(y,N,¥) 


Cou 
Bb(y,X/)= 


E 函 数 的 权 值 。 其 中 了 由 


] 户 选取 的 特 
的 训练 集 均 有 关 ， 且 


与 所 | 


“B(y,X,) 


nt(y,¥;) 
count(X¥,) 


雪 述 文本 均 有 其 特殊 的 表达 方式 与 行文 


结构 ， 但 这 些 特殊 的 差异 并 不 能 有 悖 于 原始 语言 的 约束 。 不 


同 的 汉语 文章 ， 虽 然 其 表达 方式 、 核 心思 想 的 差异 巨大 ， 但 
其 表达 架构 将 毫 无 疑问 采用 汉语 语言 约定 俗 成 的 规范 ， 


其 ， 


入 则 表示 与 特 条 


因此 


在 语言 层面 上 均 
1.3 算法 移植 性 问题 


有 相 


司 或 相似 的 表达 特征 。 


在 使 用 机 器 学 习 方法 对 文本 进行 识别 的 过 程 中 ， 通 常 都 


一 个 文本 标记 的 过 程 .将 文本 中 的 文字 分 别 进行 识别 标记 ， 


是 

最 终 再 按 标 记 
和 目的。 
在 多 数 的 下 


标记 


究 中 ， 


9 的 方法 辅助 模型 进行 内 容 识 别 。 比 如 ， 在 i 
料 中 加 入 词性 的 标记 (标注), 使 得 识别 时 多 了 一 项 可 参考 4 
征 ， 从 而 达到 提高 识别 效果 的 目的 。 因 此 自动 标注 算法 "9 


的 定义 转换 成 分 词 的 信息 ， 从 而 达到 提取 文本 


为 了 提高 识别 的 准确 率 ， 经 常会 采 


Si 


也 成 为 了 而 


引用 任何 附加 标记 , 仅 


完 人 员 的 方向 之 一 。 
固化 了 模型 的 性 能 方向 ， 因 此 其 最 大 的 问题 在 于 训练 语料库 
的 构建 ， 模 型 在 运行 中 会 极 大 地 依赖 训练 语 料 中 的 信息 ， 导 
致 其 在 不 同 领域 文本 中 识别 的 时 候 不 能 得 到 快速 的 运用 ， 需 
要 依赖 指定 的 标注 ， 降 低 了 算法 的 可 移植 性 。 
为 了 解决 识别 算法 的 移植 性 问题 ， 在 研究 中 ， 


即便 如 此 ， 标 记 的 增多 还 是 


本 文 将 不 


类 词汇 ， 


将 词汇 分 为 单字 词 与 多 字 词 


将 标点 符号 也 归 类 为 单字 词 ， 尽 可 能 减少 实验 需要 参考 的 额 


外 信息 ， 进 行 词汇 特征 的 提取 实验 。 


2 ”基于 条 件 随 机 场 的 汉语 词汇 特征 
结合 DG 理论 ， 汉 语词 汇 可 以 分 为 两 大 类 : a) 在 句子 中 


影响 框架 结构 的 词语 ， 
成 了 句子 中 心思 想 的 


如 动词 、 介 词 、 否 定 词 ， 这 些 词语 形 
医 架 , 决定 了 文中 描述 实体 之 间 的 关系 ; 


义 符 合 特征 /的 描述 ， 则 函数 特征 返 臣 


是 次 数 函 数 ， 若 当 


Ef 


革 表 示 观 测序 列 ，xi 表 示 当 前 观测 值 ，y 表示 标记 值 ; 
的 描述 直接 相符 的 序列 段 ; 


函数 count 则 


前 观测 值 x; 与 周围 指定 的 


其 他 观测 值 we 


当前 观测 位 置 i 不 具有 特征 大 
的 观测 值 x 使 得 加 考 25， 则 


f (yn,X)=1 


在 模型 的 训练 
对 符合 特征 了 的 序 肌 
® 大体 上 与 该 特征 出 现 的 概率 成 正比 .通常 在 CRF 的 应 
先 会 指定 一 个 特 行 


函数 。 


2.1.2 特征 函数 提取 模板 
特征 函数 了 一 般 以 


1， 否 则 返回 0 表示 
有 标记 值 为 yi 


也 就 是 说 ， 者 


中 ,模型 会 逐个 匹配 训练 集中 的 观测 序列 ， 
1 段 进行 记 录 ， 并 调整 对 应 w 的 值 ， 使 得 
中 ， 


E 提 取 模 板 ， 再 


由 象 数据 


有 .OH 


征 函 数 提取 模板 五 则 是 
一 些 特征 提取 规 贝 


So 


结合 训练 集 的 分 布 生成 特征 


的 形式 存在 于 模型 中 ， 而 特 


j 户 根据 功能 需要 ， 按 需求 指定 的 


|。 即 有 
万 (和 ,下 ) 
PO S| 
fr (y,Xi,¥) 


EF 中 :Xz={Xo, XX1, 和 ，…, 了 表示 训练 集中 的 各 个 观测 序列 
集合 ， 指 定好 模板 的 提取 规则 后 ， 通 过 遍历 训练 集中 的 序 


列 ， 能 够 得 到 天 个 互 不 相同 的 特征 函数 f。 通 常 ， 模 型 中 会 


同时 使 用 到 多 个 特征 函数 提取 模 
如 图 1 所 示 ， 特 征 函数 提取 


指定 观测 值 人 


在 实际 应 用 当 站 


板 。 
模板 表示 的 是 当前 标记 yi 与 


全 和 EX 的 某 种 规则 关系 ， 图 中 为 X= fxrit2}。 
FP， 模板 F 记录 了 标记 值 与 观测 值 集合 的 相对 


位 置 关 系 , 而 当前 标记 y 与 指定 观测 值 集合 总 均 为 已 知 固定 
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值 ， 因 此 ， 在 不 同 的 训练 序列 宇 中 就 可 以 形成 许多 具体 的 特 。” 词 边界 上 的 观测 值 ， 则 有 

征 函 数 f。 在 此 ， 特 征 函 数 描述 了 从 训练 集中 ， 以 指定 模板 el 

规则 从 训练 集中 提取 出 来 的 具体 观测 序列 。 【Fe 和) Prefix 


即 词 级 特征 的 目标 观测 集合 X 由 当前 观测 值 x; (不 包含 ) 与 
词 边界 xm 包含 ) 之 间 的 观测 值 构 成 ， 分 为 前 级 与 后 级 两 种 
不 同 的 形式 。 为 了 明确 词缀 特征 的 信息 ， 在 应 用 中 需要 判断 
序列 是 否 为 词 边界 ， 因 此 要 求 训练 集 选取 的 标记 集中 包含 足 
够 可 以 判断 词 边界 的 信息 。 
F 同样 在 “基于 条 件 随 机 场 的 词汇 特征 ”这 个 表述 中 ， 根 


Xi Ni] Xi Xir] Xit2 


~ 


据 汉语 语言 特性 ， 就 可 分 为 “基于 ”“ 条 件 随机 场 ”““ 的 ”“ 忆 
汇 ”““ 特 征 ”五 个 具有 实际 表述 意义 的 词汇 ， 而 “ 场 ” 字 就 具 
图 1 特征 函数 提取 模板 示意 图 有 “条 件 随 机 ”这 样 的 前 级 特征 ,“ 随 ” 则 同时 具有 前 级 “条 
Fig.1 Template of feature extracting function 件 ” 以 及 后 级 “机 场 ”。 
2.2 基于 条 件 随 机 场 的 词汇 特征 如 图 5 所 示 ， 箭 头 依然 表示 一 个 特征 ， 方 形 仍 表示 当前 
条 件 随机 场 中 的 特征 函数 fy,xi, 六 是 一 个 描述 标记 > 与 ”观测 序列 〈 部 分 )， 而 相 邻 实心 方形 表示 三 个 观测 值 能 够 组 成 


序列 站 之 间 的 关系 的 函数 ， 因 此 要 使 用 条 件 随 机 场 ， 也 需要 有 实际 意义 的 词汇 ， 根 据 词 级 特征 的 描述 ， 显 然 仅 有 词汇 中 
将 特征 定义 为 相同 的 描述 形式 ， 即 定义 特征 函数 提取 模板  ” ”的 字 有 词缀 特征 。 特 殊 地 ， 常 用 的 词缀 特征 有 前 缀 (pre) 特 
Go 加。 本 节 将 解释 具体 的 词汇 特征 , 对 常用 的 汉语 词汇 的 特 。” 征 和 后 缀 (post) 特征 ， 图 5 则 描述 了 一 个 三 字 词 的 第 一 字 


征 进行 归纳 总 结 ， 并 将 其 转换 成 为 描述 标记 与 序列 之 间 关 系 的 词 后 级 特征 。 
的 特征 函数 。 2.2.3 邻接 特征 (antecedent & subsequent feature, Ant & Sub) 
2.2.1 随机 特征 (random features，R) 邻接 特征 表示 与 当前 表达 相 邻 的 实体 , 即 词 边界 外 的 词 。 
随机 特征 即 随机 指定 的 特征 ， 指 的 是 当前 观测 值 与 指定 若 以 X 表示 与 当前 观测 值 x; 所 属 词汇 邻接 的 词汇 (包括 单 
的 另 一 个 观测 值 的 关系 。 其 使 用 固定 相对 位 置 选取 单个 观测 字 词 与 标点 符号 )， 则 有 
值 作为 目标 观测 集合 妃 ， 即 wy 的 值 。 通 常 令 j=i+tn, nEN,， XX, =X 
其 中 N 为 整数 集 。 即 取 临 近 的 观测 值 作为 目标 观测 集合 ， 若 在 “基于 条 件 随 机 场 的 词汇 特征 ”这 个 表述 中 ,“ 随 ” 字 
目标 值 wy 不 存在 ， 则 将 观测 值 指定 为 特殊 标记 OUT， 如 : 包含 在 词语 “条 件 随 机 场 ” 内 ， 有 具有 与 先行 词 “ 基 于 ” 后 继 
元 sa 词 “ 的 ” 相 邻 的 邻接 特征 。 基 于 DG 理论 ， 词 与 词 之 间 ， 尤 
”OUT 于 其 是 相 邻 词 之 间 存 在 着 特殊 的 关系 ， 而 这 些 关 系 能 够 给 分 词 
口 口 口 口 ; 口 口 口 ; 口 边界 提供 特征 信息 。 由 于 词汇 有 两 种 不 同 的 邻接 状态 ， 即 邻 


5 接 特征 分 为 两 种 ,先行 词 (Ant) 特征 与 后 继 词 (Sub ) 特征 ， 
如 图 6、7 所 示 。 


图 2 随机 特征 (R) 图 3 特征 集 Rl 口 :加 国 : 回 转 圈 圈 ; 国 国 ; 口 


Fig.2 Random feature (R) Fig.3 feature set: R1 A 人 
如 图 2 所 示 ， 图 中 的 箭头 表示 一 个 特征 ， 每 个 方形 表示 


当前 观测 序列 了 中 的 字 xi， 圆 形 表示 当前 标记 y， 即 当前 标 


记 与 箭头 指向 的 观测 值 〈 序 列 ) 存在 特征 关系 。 对 于 “基于 图 6 先行 词 (Ant) 特 征 图 7 后 继 词 (Sub) 特 征 
条 件 随 机 场 的 词汇 特征 ”这 一 表述 中 ， 其 中 的 “ 特 ” 字 就 具 Fig.6 Antecedent feature Fig.7 subsequent feature 
有 前 一 字 是 “ 汇 ” 后 一 字 是 “ 征 ” 这 样 的 特征 ， 显 然 其 观测 6、7 中 ,相同 填充 的 方形 表示 其 处 于 同一 词汇 中 。 顾 


字 与 当前 字 的 相对 位 置 是 由 用 户 自行 指定 的 。 而 之 所 以 称 2 名 思 义 ， 仅 有 词汇 的 边界 字 有 邻接 特征 。 

为 随机 特征 ， 是 因为 在 实际 应 用 中 ， 当 前 标记 与 指定 未 知 的 2.2.4 边界 特征 (marginal feature，MS & ME) 

观测 字 并 非 一 定 存在 特征 关系 , 从 而 影响 模型 对 特征 的 提取 。 词汇 的 边界 特征 ， 表 示 词 汇 的 开始 字 或 结束 字 。 边 界 特 
本 文 将 用 字母 R 加 数字 的 组 合 表示 常用 的 随机 特征 集合 ，” 征 有 两 类 ， 一 是 开始 特征 (MS)， 二 是 结束 特征 (ME)， 描 

其 中 数字 表示 对 称 窗口 的 宽度 ，R1 如 图 3 描述 ，R5 如 图 4 ， 述 当前 字 作 为 词 边界 的 概率 大 小 。 例 如 “条 件 随 机 场 ” 中 的 

者 述 。 显然 ，R1 中 只 有 一 个 随机 特征 ， 而 Rs 则 是 具有 5 个 “条 ”具有 开始 字 特 征 ， 而 “ 场 ” 具 有 结束 字 特 征 。 


随机 特征 的 集合 。 以 xm 表示 当前 观测 值 x 所属 词汇 的 词 边界 上 的 观测 值 ， 
Ds 则 有 


信人 个 下 - 边界 特征 在 识别 中 通常 只 起 辅助 作用 ， 为 长 词汇 的 边界 
提供 判断 依据 。 边 界 特征 与 邻接 特征 相似 ， 仅 有 词汇 的 边界 


字 具 有 边界 特征 ,但 边界 特征 描述 的 是 当前 词 的 结束 (开始 ) 
图 4 ”特征 集 R5 图 5 后 级 特征 (P) 特征 ， 而 邻接 特征 主要 考察 与 当前 词 相 邻 的 词汇 。 
Fig.4 Feature set: R5 Fig.5 Postfix feature (P) 2.2.5 构 词 特 征 〈dictionary features，D) 
2.2.2 词 级 特征 (prefix & postfix feature，Pre & Post) 构 词 特征 描述 的 是 不 同 词汇 之 间 的 共同 之 处 ， 即 构造 词 
词缀 特征 即 词汇 的 组 成 特征 ， 指 的 是 在 处 于 词汇 中 的 单 汇 的 规则 。 构 词 特征 主要 用 于 在 识别 中 辅助 判断 指定 文字 序 


字 与 其 他 字 的 关系 。 若 以 xm 表示 当前 观测 值 x; 所 属 词汇 的 。” 列 是 否 具 备 相 应 的 构 词 规则 ， 将 训练 语 料 中 的 规则 运用 到 识 
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别 中 。 再 者 ， 构 词 特征 与 基于 词典 的 识别 有 异曲同工 之 处 ， 
而 构 词 特征 比 词典 更 抽象 ， 将 词典 与 规则 相 结 合 ， 为 词汇 的 
识别 提供 依据 。 

令 Dm={do, di, 0，…, dm}, mEN 表示 某 种 构 词 规则 序列 ， 
函数 g (x, gd) 为 二 元 函数 ， 当 且 仅 当 x* 符合 给 定 的 规则 4 时 输 
出 1， 和 否则 输出 0。 而 X={fxo xj X2,…, Xn}, nEN 表示 某 个 观 
测序 列 ， 若 存在 D,， 满 足 


Ts (x,d;)=1 
0 


则 称 也 ,符合 构 词 特征 Ds。 此 时 目标 观测 集 由 规则 序列 生成 ， 
即 


g(xd) 


X, 一 也， 
本 文 对 构 词 特征 的 提取 方式 是 ， 先 将 训练 语 料 中 的 所 有 
词汇 合并 为 参考 词典 ， 再 分 别 求 出 词典 中 任 一 两 个 词汇 之 间 


的 最 长 公共 字 序 列 (longest common subsequence，LCS )， 并 
第 选 出 LCS 足够 大 的 词汇 组 合作 为 依据 , 利用 该 序列 集 生成 
有 穷 状 态 机 (finite state machine，FSM)。 该 状态 机 将 记录 词 
中 出 现 的 公共 构 词 规则 ， 利 用 这 些 规 则 ， 生 成 基于 条 件 随 
机 场 的 匹配 特征 函数 ， 在 识别 中 提供 相应 的 匹配 依据 。 
构 词 特征 是 基于 构 词 规则 的 特征 ， 而 构 词 规则 基于 词典 
内 容 进 行 提取 。 利 用 这 一 特点 ， 在 训练 过 程 中 可 以 自 定义 词 
内 容 ， 让 模型 抽取 相应 的 构 词 特征 ， 使 得 模型 不 局 
类 语 料 的 识别 中 。 


3 ”实验 过 程 与 结果 分 析 


= 


ml 


3.1 实验 语 料 
既然 是 语言 处 理 ， 自 然 需要 相应 的 语料库 。 本 文 准 备 了 


三 类 语料库 进行 对 比 实验 ， 这 三 类 语料库 涉及 不 同 领域 ， 其 
行文 特点 均 有 明显 的 差异 。 这 些 语 料 的 共同 点 是 均 为 汉语 语 
料 ， 其 文本 表达 的 架构 词汇 具备 相同 或 相似 的 词汇 特征 ， 而 
包含 的 专 有 名 词 往往 不 同 。 
1)Bakeoff2005 (SIGHAN) 语 料 Bakeoff 是 SIGHAN 
开 主 办 的 国际 中 文 语言 处 理 竞 赛 ,而 主办 方 将 其 第 二 届 (2005) 
赛 中 的 数据 公开 ， 用 于 支持 各 机 构 进 行 中 文 语言 处 理 的 研 
究 。 该 语 料 也 是 目前 被 最 广泛 运用 到 的 分 词语 料 ， 其 中 ,来 
自 北 京 大 学 的 数据 为 简体 中 文 语 料 ， 其 内 容 主 要 来 源 于 人 民 
日 报 的 相关 报道 与 资料 ， 具 有 内 容 通俗 易 懂 、 表 达 大 众 化 等 
特点 。 本 文选 取 的 正 是 其 中 来 自 北 京 大 学 的 语 料 作为 太 
料 。 

2)NLPIR 微 博 语 料 ” 该 语 料 出 处 为 NLPIR。NLPIR 全 称 
为 自然 语言 处 理 与 信息 检索 共享 平台 (http://www.nlpir.org/)。 
NLPIR 搜集 了 新 浪 微 博 上 用 户 发 表 的 内 容 作 为 语 料 内容 。 而 
该 语 料 的 特点 是 行文 随意 、 情 感 丰富 ， 其 文本 内 容 常 常 呈 不 


加 


工 


究 语 


完整 的 表达 形式 ， 属 于 语言 特征 比较 不 明显 的 汉语 语 料 。 
3) 法 律 文书 语 料 ”本文 搜 集 了 人 民法 院 公开 发 布 的 各 类 


文书 内 容 作为 第 三 类 研究 语 料 。 这 些 包 括 判决 书 、 裁 定 书 及 
执行 通知 书 等 人 民法 院 发 布 的 法 律 文件 内 容 ， 其 具有 行文 规 
范 工整 、 表 达 逻 辑 性 强 、 使 用 术语 多 等 特点 。 
本 研究 中 ， 抽 取 Bakeoff2005 中 的 少许 内 容 (共计 400 
行 ) 作为 训练 语 料 ， 而 剩 下 语 料 内 容 及 其 他 类 型 语 料 作 为 参 
考 语 料 ， 判 断 相 应 特征 对 识别 结果 的 影响 。 
3.2 ”BMES 标记 集 
本 文 将 使 用 常用 的 BMES 标记 集 对 语 料 进行 标记 , 不 使 
用 任何 附加 标记 ， 尝 试 从 最 基本 的 标记 中 寻找 词汇 的 特征 。 
其 中 ， 标 记 S 表示 单字 词 或 单 标 点 符号 ,， 标记 B 表示 多 字 词 
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或 多 字符 符号 的 首 字符 ，M 表示 中 间 字 符 ，E 表示 尾 字符 
在 本 文中 ， 这 些 标 记 还 有 其 他 隐 含 的 意义 : B 表示 当前 词 的 
开始 标记 ， 即 先行 词组 合 完毕 ; E 则 表示 当前 词组 合 完毕 ， 
应 以 当前 字 作为 词尾 。 
3.3 ”特征 集 符号 
根据 2.2 节 描 述 的 几 个 词汇 特征 , 本 文通 过 考察 与 分 析 ， 
决定 在 实验 中 将 主要 考察 以 下 特征 对 识别 结果 的 影响 。 特 征 


集 符号 及 描述 如 表 1 所 示 。 


表 1 特征 集 符号 及 描述 
Table ] Descriptions of feature sets 
符号 描述 
RI 当前 字 的 特征 
R5 当前 字 以 及 前 后 2 字 ( 共 5 字 ) 的 特征 集合 
Pre 前 级 的 特征 
Post 后 级 的 特征 
Ant 先行 词 的 特征 
Sub 后 继 词 的 特 
MS 词 开始 字 的 特征 
ME 词 结束 字 的 特征 
DI1 任意 两 词 之 间 的 LCS > 1 形成 的 构 词 特 和 
D2 任意 两 词 之 间 的 LCS > 2 形成 的 构 词 特 行 
3.4 评测 方法 
本 文 的 评测 基准 为 分 词 结果 ， 并 不 对 每 个 字 的 标签 进行 
逐 字 评测 。 类 似 于 命名 实体 识别 的 判别 ， 本 文 使 用 自己 的 方 
式 将 标注 结果 转换 成 识别 结果 ， 并 对 识别 结果 进行 判别 ， 计 
算 其 准确 率 (Precision，P)、 召 回 率 〈Recall，R )。 本 文 在 
特征 集 的 评测 过 程 中 主要 考察 模型 识别 的 准确 率 ， 也 因此 不 
计算 其 F 值 (F-Measure) 的 大 小 。 其 中 : 
p= 准确 识别 出 的 词 数 
识别 出 的 总 词 数 
_ 准确 识别 出 的 词 数 
样本 包含 的 总 词 数 


3.5 ”模型 效果 对 比 实验 


本 文 模型 采用 CRF 原理 构建 ， 
数 优化 。 在 研究 实验 中 ， 训 练 集 、 
只 对 模型 的 特征 函数 进行 调整 。 
(model) 与 开源 工具 CRF++0.58 (CRFPP) 的 识别 效果 进 


行 了 对 比 ( 表 2)。 


从 表 2 中 对 比 结果 
同 而 造成 的 差异 外 ，model 的 识别 效果 基本 与 


训练 场景 不 


其 中 ， 本 文 尝试 了 该 模型 


使 用 L-BFGS 算法 进行 参 
测试 集 内 容 均 保持 不 变 ， 


来 看 ， 除 去 优化 阔 值 、 正 则 化 参数 等 


CRFPP 的 识别 效果 相似 ， 随 机 特征 (R) 的 增多 对 识别 效果 
反而 有 负 影 响 。 由 于 训练 集 语 料 取 自 BAKEOFF2005， 所 以 
其 识别 准确 率 、 召 回 率 均 高 于 其 他 语料库 的 现象 是 合理 的 。 
表 2 模型 效果 对 比 
Table 2 Model performances 

模型 特征 Bakeoff NLPIR 法 律 文 书 

P R P R P R 
RI1 50.89 68.17 49.12 56.12 42.10 47.13 
CRFPP R5 52.72 73.43 49.04 56.18 43.92 50.57 
R9 51.20 73.78 48.68 57.01 41.50 51.15 
RI1 50.37 67.33 48.52 54.46 40.66 46.31 
model RS 50.06 71.91 47.81 54.56 41.41 49.84 
R9 48.52 72.63 45.68 54.17 39.39 50.59 


从 表 中 还 可 以 看 出 ， 相 比 了 
构建 的 模型 在 相同 特征 


条 件 下 


FF 成 熟 开 源 工具 CRF++， 本 文 
多 还 一 筹 ， 准 确 率 差 异 最 大 达 
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到 了 3%。 本 文 之 所 以 自行 构建 模型 ， 是 因为 CREF++ 无 法 满 ”并 且 在 最 后 的 实验 中 ， 增 加 训练 集 规模 ， 对 比 不 同 组 合 对 训 
中 本 文 想 要 自 定义 复杂 特征 函数 的 需求 , 且 CRF++ 在 不 引入 练 集 的 敏感 程度 。 实 验 结果 如 图 9、10 所 示 。 


额外 标记 的 条 件 下 ， 难 以 做 到 精确 提取 词汇 的 相关 特征 。 DE | 
3.6 ”特征 集 综合 对 比 实验 | 国 Feae 
本 文 经 过 一 系列 实验 ， 分 别 考察 了 不 同类 型 特征 的 组 合 加 
对 模型 的 性 能 影响 ， 每 类 选取 平均 准确 率 较 高 的 前 两 种 〈 共 80 恒 - 0 
六 种 ) 组 合 进行 综合 对 比 ， 选 取 结果 如 表 3 所 示 。 wo 0.480 一 0493 
表 3 选取 的 特征 组 合 及 识别 准确 率 泻 0.460 pe 
Table 3 Precisions of selected feature sets 二 0.440 0:430 = 0-432 一 
组 合 类 型 平均 准确 率 全 0.420 = 
R1 + Pre + Post 词缀 特征 0.48363 SET4 SET4+D1 SET4+D2 
R5 + Pre + Post 闻 纹 特 和 0.48113 一 9 一 BAKEOFF2005 一 重 一 NLPIR 一 和 一 法 律 文书 
R1+Ant+ Sub 本 0.48150 
邻接 特征 
R5+ Sub 0.47853 图 9 构 词 特征 对 比 结果 1 
RS + MS 、 0.47017 Fig.9 Performances of dictionary features 1 
Rs+ME 人 全 0.46973 9 显示 了 Set4 与 构 词 特 征 组 合 后 进行 识别 的 准确 率 ， 
根据 表 3 的 内 容 ， 本 文 对 最 终 实验 特征 集 进 行 组 合 ， 并 ”结果 表明 ,在 特征 集 Set4 添 加 D2 特征 能 略微 提高 识别 效果 ， 
进行 对 比 实验 比较 其 识别 效果 。 特 征集 的 选取 结果 如 表 4 所 ”而 D1 特征 在 NLPIR 测试 集中 反而 使 得 准确 率 降低 ， 说 明了 
示 。 构 词 特征 确 能 在 识别 中 提高 识别 效果 , 与 其 他 特征 可 以 共存 。 
实验 结果 如 图 8 表示 。Set4、Set6 的 识别 效果 要 略 优 于 图 10 则 显示 了 增加 训练 集 规模 后 ,用 相同 特征 集 进行 识 


其 他 特征 集 组 合 ， 其 中 Set6 比 Set4 多 了 四 种 随机 特征 ， 但“ ” 别 的 结果 。 其 中 ， 增 加 的 训练 集 与 原 训练 集 属于 同类 语 料 ， 
识别 效果 几乎 没有 变化 。 根 据 组 合 中 的 不 同 搭配 可 以 看 出 ， 即 Bakeoff2005 中 的 语 料 内 容 , 增加 后 共计 1 001 行 训练 语 料 
随机 特征 (R) 只 在 有 限 范围 内 有 利于 识别 效果 邻接 特征 ( 原 400 行 ， 增 601 行 )。 图 10 中 ， 阴 影 填 充 的 图 例 表 示 不 


T 


中 ， 先 行 词 特征 〈Ant) 在 组 合 中 反而 会 降低 识别 的 准确 率 ; 同 测试 语料库 的 识别 效果 ， 而 纯色 图 例 表 示 增 加 语料库 后 准 
结束 字 特 征 (ME) 明显 优 于 开始 字 特 征 MS)。 确 率 的 增加 量 。 可 以 看 出 ， 增 加 语料库 后 ， 使 用 三 种 特征 组 
表 4 特征 集 选取 组 合 合集 的 识别 效果 均 有 提高 ， 但 组 合 Set4 + D2 有 着 更 明显 的 
Table 4 New sets of feature sets 性 能 提升 。 
特征 集 组 合 0.600 0.581 


Setl R1+Pre+Post+Ant+Sub +MS 


Set2 R1+ Pre+Post+Ant+ Sub + ME 号 0.550 
Set3 RI1 + Pre + Post + Sub + MS 加 
= 
Set4 Rl1+Pre+Post+ Sub+ ME 一 0.500 
Set5 R5+Pre+Post+ Sub + MS 王 
Set6 R5 + Pre + Post + Sub + ME 举 0.450 
0.54 - -5275 0-5276 0.526 不 0400 
‘SC 0.52 0 SET4 SET4+D1 SET4+D2 
S 0.5154 
‘5050 oda855 O04843 04868—0 0:-487 和 78 本 症 律 位 所 
5 0.4855 0.4843 0. .4 六 BAKEOFF2005 ”日 NLPIR “1 法律 文书 
S048 [5. 
如 10 构 词 特征 对 比 结果 2 
PP - 0-4304 0-4323 Fig. 10 Performances of dictionary features 2 
04218 eh 3.8 ”最终 模 型 效果 对 比 实验 


“Wh 109g6 0.4224 在 3.5 节 的 模型 对 比 实验 中 , 本 文 构建 的 模型 在 R5 特征 
SE aE Er Cea cer eee 下 的 性 能 略 进 于 开源 工 1 CRF++0.58 的 性 能 。 而 通过 对 比 与 

AREOLEIOOE i 调整 ， 本 文 找到 了 实验 中 结果 相对 最 优 的 Set4 + D2 简称 
S4D2 ) 特征 集 ， 本 小 节 亦 将 扩充 后 的 训练 语 料 应 用 于 


一 一 法 律 文书 一 一平 均值 ee i 
CRF++0.58 中 ， 再 次 进行 模型 对 比 实验 ( 表 5)。 
图 8 特征 集 组 合 对 比 结果 表 5 最 终 模 型 效果 对 比 
Fig.8 Performances of new sets Table 5 Performance comparisons of final feature sets 


3.7 构 词 特征 对 比 实验 

上 一 节 中 本 文 讨论 了 各 种 词汇 相关 的 特征 对 识别 的 影响 ， ”模型 ”特征 
得 到 了 结果 最 优 组 合 Setd， 即 包含 了 随机 特征 (R1)、 词 前 
级 特征 (Pre)、 词 后 级 特征 (Post)、 后 继 词 特征 (Sub)、 结 CRFPP 


Bakeoff NLPIR 法 律 文书 


展 R P R P R 
R5 52.72 73.43 49.04 56.18 43.92 50.57 


证 Ej ix i Ee ee RS* .32 . 1.20 .45 46.00 i 
束 字 特 征 ME 的 集合 为 效果 最 优 的 特征 集合 , 通过 这 些 特征 ， 站 3 
条 件 随 机 场 能 够 很 好 地 从 训练 集中 提取 相应 词汇 信息 。 ee ed 0 A RO eA 0 


在 本 节 中 , 将 结合 构 词 特征 (D1、D2) 分 析 更 优 的 组 合 ， S4D2* 58.06 75.29 51.27 $57.21 47.05 52.94 
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训练 
用 扩 


表 5 的 特征 一 列 的 表述 中 , 加“*” 号 表示 使 用 扩充 后 的 
语 料 (1001 行 ) 进行 实验 ， 不 加 “*” 号 则 表示 实验 使 
充 前 的 训练 语 料 (400 行 )。 其 中 CRFPP 表示 使 用 开源 


模型 


在 图 
性 能 


CRF++0.58， 而 model 表示 使 用 本 文 构建 的 条 件 随 机 场 
表 5 中 显示 了 附加 模型 对 比 实验 结果 ， 其 准确 率 对 比 也 
11 与 12 分 别 给 出 。 其 中 ， 本 文选 取 了 两 模型 在 实验 中 
最 好 的 特征 集 进行 对 比 (CRFPP 为 R5 特征 集 ， 而 

选 


MODEL 为 Set4+D2)。 通 过 对 比 可 以 看 出 ， 经 过 对 特征 的 


取 ， 


与 3.5 小 节 中 的 初步 性 能 对 比 不 同 ，model 已 经 达到 了 


与 CRFPP 相同 甚至 更 优 的 效果 ,扩充 训练 集 后 ，model 在 准 


确 率 


上 体现 出 了 更 好 的 变化 。 
0.580 
.8 0.560 0-532 
总 0.540 0.52 
oO 
应 0.520 
3 0.500 0.490 0.495 
0.480 
= 0.460 一 一- 一 一 一 
0.439 0.439 
入 0.440 
0.420 
CRFPP MODEL 
一 4 一 BAKEOFF2005 一 器 一 NLPIR 法 律 文书 


图 11 最 优 识别 结果 对 比 
Fig. 11 Bestperformance of two models 


.9 
加 0.54 
2 
请 


0.52 0.512 0.5127 
可 一 一 一 一 一 一 一 名 

. 0.4705 
嵌 0.46 TiE 
iE 0.44 
不 0.42 

CRFPP MODEL 

$= BAKEOFF2005 一 器 一 NLPIR 法 律 文书 


图 12 最 优 识别 结果 对 比 
Fig.12 Bestperformance of two models 


结束 语 
在 命名 实体 的 识别 中 ， 分 词 是 一 项 重要 的 前 置 过 程 。 本 


究 了 在 基于 简单 标记 (BMES 标记 集 ) 且 不 引入 任何 附 


文 而 
加 标 
移植 


果 的 
更 重 
决 语 
实验 
的 特 


记 的 条 件 下 ， 如 何 提 高 词汇 的 识别 准确 率 ， 提 高 算法 可 


性 


通过 实验 ， 本 文 对 比 并 组 合 了 一 些 能 够 提高 词汇 识别 效 
词汇 特征 ,使 用 这 些 特征 函数 比 一 般 特 征 有 更 好 的 效果 。 
要 的 是 ， 训 练 集 中 不 需要 提供 任何 附加 标记 ， 这 也 是 解 
言 处 理 算 法 可 移植 性 问题 中 的 一 个 重要 方向 。 同 时 ， 本 
还 说 明了 在 条 件 随机 场 模型 的 应 用 中 ， 灵 活 且 符合 情景 
征 比 随机 而 固定 的 特征 更 能 保证 模型 的 运行 性 能 。 本 文 


的 下 


CRF 
路 。 


究 还 说 明了 通过 特定 特征 函数 的 选取 ， 确 实 能 够 提高 
在 文本 识别 中 的 性 能 ， 提 供 了 提高 识别 算法 移植 性 的 思 
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在 今后 的 研究 工作 中 , 笔者 将 继续 寻找 更 优 的 词汇 特征 ， 
也 会 致力 于 模型 优化 算法 的 研究 ， 寻 找 出 更 优 而 更 有 效率 的 
识别 特征 
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